Hyperbolic Image and Text Representations

#paper #100本読み

facebook researchの研究

ICML 2023 Poster (採択率25%)? Karan Desaiらの研究

MERU

Entailment ：　必然性

hyperbolic = 双曲線的な、sinh, cosh, tanh, のあれ

CLIPでは超球（hypersphere）上に埋め込まれるが、言語の木構造的特徴を反映するために双曲面(hyperboloid)に埋め込むことが重要だと主張

Being competitive with CLIP's performance

言語には、階層的な概念があるはずである。

テキスト「犬」は、犬を含むすべての画像を暗示している。

つまり、言語情報のほうが画像よりも広い表現となる場合がある。

逆に、画像のほうが広い場合もあるが、言及していない。

Ex. text-to-image retrievalにおける一対多問題

近年のlarge-scale vision and language models(like CLIP)では、明示的にこのような階層構造を捉えているわけではない。

超双曲空間：幾何学的特性として、木構造のようなデータを（階層構造のあるデータを）埋め込むことに適している（なぜEuclidean spaceよりも妥当なのか？）

解釈性の高い「表現空間」（structured representation space）を学習する。画像分類、retrievalといった標準的なマルチモーダルタスクにおいて、CLIPとcompetitive

Representation Manifolds（表現多様体）

CLIP：hypersphere

MERU：hyperboloid

最も一般的な概念を原点と仮定

画像よりもテキストを原点に近づけて埋め込む

この妥当性は少なくともweaknessでは？

CLIP：埋め込みを単位超球面（unit hypersphere）に射影（線形変換）

射影 = 次元が落ちている？

MERU：指数写像を使用してローレンツ超双曲面に写像（lifts them onto ~ ）

英語の感じだと次元が上がっている？

contrastive lossは、類似性の評価尺度として、負のLorentzian distanceを使う。

spacial entailment lossとやらは、textは画像を暗示する、という部分的順序を強制している。

https://scrapbox.io/files/653974142129bf001c1127de.png

Entailement loss$ L_2は、ペアになったテキストのembedding$ xによって投影される仮想的な円錐内に画像のembedding$ yを押し込み、外角$ \angle Oxyと円錐の半口径の差として実装される。画像の埋め込みがすでに円錐内にある場合、lossは0となる。

https://scrapbox.io/files/65397465ba0753001ba76176.png

Zero-shot image and text retrievalの検証結果。どのモデルサイズでも、CLIPを上回る性能

画像は通常それを説明する文より遥かに多くの情報を含む

キャプショニングの粒度として、詳細な説明でも曖昧でも良い

「説明するキャプションはたくさんあるよね」よりも強い主張

semantic contentに対する粒度が異なるということ

Vendrovらによれば、概念を意味のある階層的に整理できる

この帰納バイアスをマルチモーダルモデルに組み込むことで、

Generalization （CLIPの話）

interpretability (Grad-camの話)

exploratory data analysis of large-scale datasets (LAION-5Bの話)

の向上が見込まれる

CLIP、ALIGNなどのアプローチでは、高い次元のEuclidean affine spaceとして表現し、embeddingsはL2normによって正規化される。

余談：Transformerには"transferable"があるらしい

affine Euclidean spaceでは、すべてのembeddingに対し同じ方法で、同じ距離尺度で行っている。

階層的な概念を表す時には不適切であると主張

「階層構造の根の近くにあるノード」は、他の特定の概念と比較して、より多くの他の概念に近い。

概念上、階層構造にしたいのに、一般的な概念と具体的な概念が近くなってしまうという問題

その後のロジック的には具体的＋具体的の距離だね

一般的な概念に対し、すべての画像を詰めることが難しい（？）

多義性（polysemy）の面から、affine Euclidean spaceが必ずしも良いとは言えない。